1.2 可能的输出

1 实验主义视角的因果推断

没有操纵就没有因果. 我们关心什么, 就把什么作为干预的对象. 例如

如果我们关心阿斯匹林的效果, 干预就是是否服用阿斯匹林
如果我们关心肥胖对寿命的影响, "干预"就是不同的 BMI (这算一个非良定的干预, 因为它没有显式进行干预, 例如健康饮食、锻炼这样的减少 BMI 的方式)

2 输出结果的记号方式

考虑一个实验有 $n$ 个实验单元: $i = 1, \dots, n$ . 令 $1$ 为实验组, $0$ 为对照组. 对每个单元 $i$ , 它来自两个组中的一个, 所以我们只能观察到 $Y_{i} (0), Y_{i} (1)$ 中的一个.

假设

(无干预) $i$ 的可能结构不依赖其他单元
(一致性) 实验组的干预方式唯一且确定
(SUTVA) 上述两个假设成立.

无干预假设可能会被社交网络或者传染性疾病破坏; 一致性假设可能会被具体的干预的种类影响(例如香烟的品牌, 大学教育的专业等). 我们可以用表格 (潜在结果表, science table) 表示这些结果

$i$	$Y_{i} (1)$	$Y_{i} (0)$
$1$	$Y_{1} (1)$	$Y_{1} (0)$
$⋮$	$⋮$	$⋮$
$n$	$Y_{n} (1)$	$Y_{n} (0)$

定义 因果效应(causal effect) 为 $τ_{i} = Y_{i} (1) - Y_{i} (0) .$ 但是我们只能观测到 $Y_{i} (1)$ 和 $Y_{i} (0)$ 中的一个, 因此直接研究 $τ_{i}$ 比较困难. 为此我们首先定义 平均因果效应(ACE, average causal effect) 为 $τ = \frac{1}{n} \sum_{i = 1}^{n} [Y_{i} (1) - Y_{i} (0)] = \frac{1}{n} \sum_{i = 1}^{n} Y_{i} (1) - \frac{1}{n} \sum_{i = 1}^{n} Y_{i} (0) .$

2.1 因果效应子组 Yule-Simpson 悖论的不存在性

如果我们用二元变量 $X_{i}$ (取值 $0, 1$ ) 定义两个子组, 可以定义子组的因果效应为 $τ_{x} = \frac{\sum_{i = 1}^{n} 1 {X_{i} = x} [Y_{i} (1) - Y_{i} (0)]}{\sum_{i = 1}^{n} 1 {X_{i} = x}}, x = 0, 1.$
它代表两个子集中因果效应分别的平均值. 如果记 $π_{x} = \frac{1}{n} \sum_{i = 1}^{n} 1 {X_{i} = x}$ , 则 $τ = π_{1} τ_{1} + π_{0} τ_{0} .$ 也即每部分的平均值乘以每部分的占比. 如果 $τ_{1}, τ_{0} > 0$ , 则 $τ > 0$ , 符号一致, 这说明 Yule-Simpson悖论不能发生在因果效应这一统计指标中.

2.2 实验单元定义的微妙之处

实验单元和实际的物理单元可以不一样. 例如, 一个人服用阿斯匹林前头痛, 服用后头不痛, 这里实际上是两个实验单元 $i, before$ 和 $i, after$ . 因此我们有四个可能的结果: $Y_{i, before} (0) = 0, Y_{i, before} (1) = ?, Y_{i, after} (0) = ?, Y_{i, after} (1) = 1.$ 这里我们观察到两个, 丢失两个. (可能不服药头痛也会消失, 或者服药后头依然痛)

2.3 分配实验组的机制

记 $Z_{i}$ 是单元 $i$ 的是否分配到实验组的标志, 记 $Z = (Z_{1}, \dots, Z_{n})$ , 则 $i$ 的观测结果是 $\begin{aligned} Y_{i} & = {\begin{aligned} Y_{i} (1), Z_{i} = 1, \\ Y_{i} (0), Z_{i} = 0 \end{aligned} = Z_{i} Y_{i} (1) + (1 - Z_{i}) Y_{i} (0) \\ = Y_{i} (0) + Z_{i} (Y_{i} (1) - Y_{i} (0)) = Y_{i} (0) + Z_{i} τ_{i} . \end{aligned}$
而与之相对的是缺失结果: $Y_{i}^{mis} = {\begin{aligned} Y_{i} (0), Z_{i} = 1, \\ Y_{i} (1), Z_{i} = 0 \end{aligned} = Z_{i} Y_{i} (0) + (1 - Z_{i}) Y_{i} (1) .$